Anotación morfosintáctica do Corpus Técnico do Galego

نویسندگان

  • Xavier Gómez Guinovart
  • Susana López Fernández
چکیده

O Corpus Técnico Anotado do Galego (CTAG) é a versión categorizada e lematizada do Corpus Técnico do Galego (CTG), unha colección de córpora do galego contemporáneo composta de textos monolingües especializados nos eidos do dereito, da informática, da economía, das ciencias ambientais, da socioloxía e da medicina, dispoñible en Internet desde 2006 para libre consulta (Gómez Clemente e Gómez Guinovart, 2006-2009). Cunha extensión actual de 12,5 millóns de palabras, o CTG reúne textos do ámbito xurídico-administrativo (2.516.846 palabras), textos de informática e telecomunicacións (2.027.816 palabras), textos de ecoloxía e ciencias ambientais (2.349.362 palabras), textos de economía (2.055.837 palabras), textos de socioloxía (2.442.765 palabras) e textos de medicina (1.154.071 palabras, aínda en fase de recompilación). A anotación do Corpus CTAG non é totalmente automática, senón que ten unha primeira fase na que se lle aplica un programa etiquetador e lematizador, e unha segunda fase na que se revisan manualmente os resultados deste procesamento automático. Os traballos de anotación lingüística do CTAG, en fase avanzada de elaboración, lévanse a cabo no marco de dous proxectos de investigación en curso, aínda que os seus resultados iniciais xa

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega

Resumen. En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación mo...

متن کامل

Vencendo a escassez de recursos computacionais. Carvalho: Tradutor Automático Estatístico Inglês-Galego a partir do corpus paralelo Europarl Inglês-Português

À hora de desenvolver muitas ferramentas estat́ısticas de Processamento da Linguagem Natural tornase essencial a utilização de grandes quantidades de dados. Para salvar a limitação da escassez de recursos computacionais para ĺınguas minorizadas como o galego é necessário desenhar novas estratégias. No caso do galego, importantes romanistas têm teorizado que galego e português são variantes do po...

متن کامل

How Does the Granularity of an Annotation Scheme Influence Dependency Parsing Performance?

The common use of a single de facto standard annotation scheme for dependency treebank creation leaves the question open to what extent the performance of an application trained on a treebank depends on this annotation scheme and whether a linguistically richer scheme would imply a decrease of the performance of the application. We investigate the effect of the variation of the number of gramma...

متن کامل

SenSem: sentidos verbales, semántica oracional y anotación de corpus

This paper presents the development of the SenSem project (BFF2003-06456),which aims at describing and representing the lexical, semantic, and syntactical behaviour of Spanish verbs. Two resources are being developed in the course of this project: a corpus of sentences associated to their syntactico-semantic interpretation, and a lexicon where each verb meaning is linked to a number of annotate...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Linguamática

دوره 1  شماره 

صفحات  -

تاریخ انتشار 2009